通用文字识别 API

您所在的位置:网站首页 科大讯飞 图片识别 通用文字识别 API

通用文字识别 API

2024-07-12 11:01:11| 来源: 网络整理| 查看: 265

接口说明 通用文字识别(Universal Character Recognition),基于深度神经网络模型的端到端文字识别系统,将图片中印刷或手写的文字转化为计算机可编码的文字(目前支持中文、英文)。 部分开发语言demo如下,其他开发语言请参照文档进行开发,也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。通用文字识别demo java语言通用文字识别demo python语言 集成通用文字识别时,需按照以下要求: 内容 说明 传输方式 http[s] (为提高安全性,强烈推荐https) 请求地址 http[s]: //api.xf-yun.com/v1/private/sf8e6aca1 注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用 请求行 POST /v1/private/sf8e6aca1 HTTP/1.1 接口鉴权 签名机制,详情请参照下方鉴权说明 字符编码 UTF-8 响应格式 统一采用JSON格式 开发语言 任意,只要可以向讯飞云服务发起HTTP请求的均可 适用范围 任意操作系统,但因不支持跨域不适用于浏览器 图片格式 jpg/jpeg/png/bmp 图片大小 base64编码后大小不超过4M #鉴权说明

在调用业务接口时,请求方需要对请求进行签名,服务端通过签名来校验请求的合法性。通过在请求地址后面加上鉴权相关参数的方式,请注意影响鉴权结果的值有url、apiSecret、apiKey、date,如果调试鉴权,请务必按照示例中给的值进行调试,具体参数如下:http示例url:

https://api.xf-yun.com/v1/private/sf8e6aca1?authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iL21nMmg5QkNrZXNwaWxaOTRIVUJhUVZQcTJ2N1B4WUY5MHRlVEJsYXhkOD0i&host=api.xf-yun.com&date=Wed%2C+11+Aug+2021+06%3A55%3A18+GMT

鉴权参数:

参数 类型 必须 说明 示例 host string 是 请求主机 api.xf-yun.com date string 是 当前时间戳,RFC1123格式("EEE, dd MMM yyyy HH:mm:ss z") Wed, 11 Aug 2021 06:55:18 GMT authorization string 是 使用base64编码的签名相关信息(签名基于hamc-sha256计算) 参考下方详细生成规则

• date参数生成规则:

date必须是UTC+0或GMT时区,RFC1123格式(Wed, 11 Aug 2021 06:55:18 GMT)。服务端会对date进行时钟偏移检查,最大允许300秒的偏差,超出偏差的请求都将被拒绝。

• authorization参数生成格式:

1)获取接口密钥APIKey 和 APISecret。在讯飞开放平台控制台,创建一个应用后打开OCR中英文字识别页面可以获取,均为32位字符串。2)参数authorization base64编码前(authorization_origin)的格式如下。

api_key="$api_key",algorithm="hmac-sha256",headers="host date request-line",signature="$signature"

其中 api_key 是在控制台获取的APIKey,algorithm 是加密算法(仅支持hmac-sha256),headers 是参与签名的参数(见下方注释)。signature 是使用加密算法对参与签名的参数签名后并使用base64编码的字符串,详见下方。

*注:* headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。

3)signature的原始字段(signature_origin)规则如下。

signature原始字段由 host,date,request-line三个参数按照格式拼接成,拼接的格式为(\n为换行符,’:’后面有一个空格):

host: $host\ndate: $date\n$request-line

假设

请求url = "https://api.xf-yun.com/v1/private/sf8e6aca1" date = "Wed, 11 Aug 2021 06:55:18 GMT"

那么 signature原始字段(signature_origin)则为:

host: api.xf-yun.com date: Wed, 11 Aug 2021 06:55:18 GMT POST /v1/private/sf8e6aca1 HTTP/1.1

4)使用hmac-sha256算法结合apiSecret对signature_origin签名,获得签名后的摘要signature_sha。

signature_sha=hmac-sha256(signature_origin,$apiSecret)

其中 apiSecret 是在控制台获取的APISecret

5)使用base64编码对signature_sha进行编码获得最终的signature。

signature=base64(signature_sha)

假设

APISecret = "apisecretXXXXXXXXXXXXXXXXXXXXXXX" date = "Wed, 11 Aug 2021 06:55:18 GMT"

则signature为

signature="/mg2h9BCkespilZ94HUBaQVPq2v7PxYF90teTBlaxd8="

6)根据以上信息拼接authorization base64编码前(authorization_origin)的字符串,示例如下。

api_key="apikeyXXXXXXXXXXXXXXXXXXXXXXXXXX", algorithm="hmac-sha256", headers="host date request-line", signature="/mg2h9BCkespilZ94HUBaQVPq2v7PxYF90teTBlaxd8="

注: headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。

7)最后再对authorization_origin进行base64编码获得最终的authorization参数。

authorization = base64(authorization_origin) 示例结果为: authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iL21nMmg5QkNrZXNwaWxaOTRIVUJhUVZQcTJ2N1B4WUY5MHRlVEJsYXhkOD0i #鉴权结果

如果鉴权失败,则根据不同错误类型返回不同HTTP Code状态码,同时携带错误描述信息,详细错误说明如下:

HTTP Code 说明 错误描述信息 解决方法 401 缺少authorization参数 {"message":"Unauthorized"} 检查是否有authorization参数,详情见authorization参数详细生成规则 401 签名参数解析失败 {“message”:”HMAC signature cannot be verified”} 检查签名的各个参数是否有缺失是否正确,特别确认下复制的api_key是否正确 401 签名校验失败 {“message”:”HMAC signature does not match”} 签名验证失败,可能原因有很多。 1. 检查api_key,api_secret 是否正确。 2.检查计算签名的参数host,date,request-line是否按照协议要求拼接。 3. 检查signature签名的base64长度是否正常(正常44个字节)。 403 时钟偏移校验失败 {“message”:”HMAC signature cannot be verified, a valid date or x-date header is required for HMAC Authentication”} 检查服务器时间是否标准,相差5分钟以上会报此错误

时钟偏移校验失败示例:

HTTP/1.1 403 Forbidden Date: Mon, 30 Nov 2020 02:34:33 GMT Content-Length: 116 Content-Type: text/plain; charset=utf-8 { "message": "HMAC signature does not match, a valid date or x-date header is required for HMAC Authentication" }

text字段base64解码示例:

{ "pages": [ { "exception": 0, "width": 189, "angle": 0, "lines": [ { "exception": 0, "coord": [ { "x": 23, "y": 7 }, { "x": 154, "y": 7 }, { "x": 154, "y": 38 }, { "x": 23, "y": 38 } ], "words": [ { "coord": [ { "x": 23, "y": 7 }, { "x": 153, "y": 7 }, { "x": 153, "y": 39 }, { "x": 23, "y": 39 } ], "conf": 0.971542418, "content": "爱我中华" } ], "angle": 0, "conf": 0.971542418, "word_units": [ { "center_point": { "x": 35, "y": 22 }, "coord": [ { "x": 23, "y": 7 }, { "x": 47, "y": 7 }, { "x": 47, "y": 39 }, { "x": 23, "y": 39 } ], "conf": 0.996019065, "content": "爱" }, { "center_point": { "x": 67, "y": 23 }, "coord": [ { "x": 48, "y": 7 }, { "x": 86, "y": 7 }, { "x": 86, "y": 39 }, { "x": 48, "y": 39 } ], "conf": 0.894925296, "content": "我" }, { "center_point": { "x": 101, "y": 23 }, "coord": [ { "x": 87, "y": 7 }, { "x": 115, "y": 7 }, { "x": 115, "y": 39 }, { "x": 87, "y": 39 } ], "conf": 0.997506082, "content": "中" }, { "center_point": { "x": 134, "y": 23 }, "coord": [ { "x": 116, "y": 7 }, { "x": 153, "y": 7 }, { "x": 153, "y": 39 }, { "x": 116, "y": 39 } ], "conf": 0.997719347, "content": "华" } ] } ], "height": 47 } ], "category": "ch_en_public_cloud", "version": "3.5.0.2094" }

text字段参数说明:

参数名 类型 描述 pages array 页面集合 pages[n].exception int 正常返回 0 异常返回 -1 pages[n].width int 页面宽度 pages[n].height int 页面高度 pages[n].angle float 图像的旋转角度 pages[n].lines array 文本行集合 pages[n].lines[n].exception int 正常返回 0 异常返回 -1 pages[n].lines[n].angle float 文本行的旋转角度 pages[n].lines[n].conf float 置信度,取值范围[0-1] pages[n].lines[n].coord array 文本行坐标,记录4个顶点位置 pages[n].lines[n].coord[n].x int 文本行坐标4个顶点x轴的位置信息 pages[n].lines[n].coord[n].y int 文本行坐标4个顶点y轴的位置信息 pages[n].lines[n].words array 单词集合 pages[n].lines[n].words[n].conf float 置信度,取值范围[0-1] pages[n].lines[n].words[n].content string 识别结果文本 pages[n].lines[n].words[n].coord array 单词坐标,记录4个顶点位置 pages[n].lines[n].words[n].coord[n].x int 单词坐标4个顶点x轴的位置信息 pages[n].lines[n].words[n].coord[n].y int 单词坐标4个顶点y轴的位置信息 pages[n].lines[n].word_units array 单字集合 pages[n].lines[n].word_units[n].content string 字符(中文单字,英文单个字母) pages[n].lines[n].word_units[n].conf float 置信度,取值范围[0-1] pages[n].lines[n].word_units[n].center_point object 单字中心点的坐标 pages[n].lines[n].word_units[n].center_point.x int 单字中心点的坐标的x轴位置信息 pages[n].lines[n].word_units[n].center_point.y int 单字中心点的坐标的y轴位置信息 pages[n].lines[n].word_units[n].coord array 单字坐标,记录4个顶点位置 pages[n].lines[n].word_units[n].coord[n].x int 单字坐标的x轴位置信息 pages[n].lines[n].word_units[n].coord[n].y int 单字坐标的y轴位置信息 category string 附加信息 version string 引擎版本号 #常见问题 #通用文字识别的主要功能是什么?

答:将图片中印刷或手写的文字转化为计算机可编码的文字,目前支持中文、英文。

#通用文字识别支持什么应用平台?

答:目前支持Web API应用平台。

#通用文字识别对图片有什么要求吗?

答:图片格式支持jpg格式、jpeg格式、png格式、bmp格式,且需保证图像文件大小base64编码后不超过4MB。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭